查看原文
其他

往届选手心得分享:腾讯广告算法大赛萌新指南

认真分享的 腾讯广告算法大赛 2019-05-29

第一届腾讯社交广告高校算法大赛以“移动App广告转化率预估“为主题,首次开放腾讯在社交和数字广告领域的“实战类”数据,以高度模拟真实业务的赛题方式呈现,并直指数字广告中的核心关键问题:转化预估,面向高校学生征集最智慧的算法解决方案,引领广告生态业界的核心技术方向。


“Raymone”团队由来自大连理工大学的李淼、栗强和来自清华大学的李达三名同学组成,在第一届腾讯社交广告高校算法大赛斩获亚军。


下面是来自团队代表栗强同学的参赛心得分享。


大连理工大学  栗强

大家好,我是来自大连理工大学的栗强,作为腾讯社交广告部门的准员工,在此我想与大家分享一下我参加第一届腾讯社交广告高校算法大赛的心得体会,希望能给今年的参赛者们一些参考。(如有不对的地方,还望大家多多指教,在此表示感谢。)


起初,我和我的队友并没有抱着进入前三名的决心,也许是幸运之神的眷顾,我们三个并没有太多参赛经验的人,竟然获得了第一届腾讯社交广告高校算法大赛的亚军。回顾比赛全程,除了拓宽了知识面、锻炼了已有专业技能之外,我们也获得了使用腾讯业界真实数据的机会,而这些都不是能在学校轻易获取到的。更重要的是,比赛提供了获得腾讯实习以及校招绿色通道的机会,这也是吸引我们参赛的一大原因。这段参赛经历也让我如愿的进入了心仪的公司——腾讯,而我的队友也分别进入了心仪的公司获得实习机会。可见,参赛本身对于我们找工作或者实习而言的重要性。


相信大家也都看到了,最近几年国内的算法比赛越来越多,这也从侧面反映了国内各大企业对于算法技术的追求。我想,无论你的参赛目的是学习、锻炼自己,或是丰富自己的简历、获得面试的机会,抑或是获取丰厚的奖金,只要你够优秀,2018腾讯广告算法大赛就可以给你提供三者兼得的机会。


好了,接下来和大家分享一些比赛中可能会遇到的问题以及我的一些建议:


1、数据集的划分

数据集的划分主要是将给定的训练集划分成本地训练集和本地验证集。通过本地验证集上的效果,来判定线上测试集的效果。所以,数据集的划分还是很重要的。就我目前所知,常用的有两种方式为:随机划分(可以做交叉验证)和按时间划分。如果数据集中有明显的时序关系(比如给定的训练集是20号到30号的数据,需要预测31号的数据),这时就要考虑采用按时间划分的方式,否则很容易导致数据泄露,造成线上线下变化趋势不统一的问题。


2、特征工程

特征工程部分一般来说特别关键,特征决定模型的上限,说的就是这个道理。除了一些基本的构造特征的方法外,建议大家多从赛题背后的真实业务场景出发,比如说什么能促使用户在点击广告之后会下载相应的APP呢?很大程度上,其实是该用户对该APP有需求。这样我们就能有针对的去构造特征,而不是盲目的构造特征,在时间效率上也会有一定程度的提升(比赛中的时间可是有限的)。如果大家对于构造特征或者模型训练这块并没有太多经验,也可以借鉴相关的比赛和博客,看看大家是如何构造特征的。


3、数据规模

如果比赛中数据规模过大,自己的机器跑起来很吃力,那么这时候建议大家可以尝试一下数据选取和特征筛选。数据选取方面,最简单的方法就是可以对数据进行下采样。尤其是在尝试新特征的时候,可以随机选取一定比例的训练样本,来验证该特征是否有效。如果该特征对模型的准确率有一定的提升,这时候再在整个训练数据集上进行训练,如此一来,可以节省不少尝试特征的时间。其次,每验证出来一个有效的特征后,我们就可以在整个训练数据集上提取该特征,并将其保存到硬盘中,这样下次需要用到该特征时直接读取数据并concat就可以了,避免重复提取同一个特征,从而节省时间成本。


4、单模型

模型方面,目前使用比较多的有XGBoost、LightGBM、GBDT、FFM等。由于LightGBM相比于XGBoost有着精度相似,同时训练速度快好几倍的优点,在训练比较吃力的情况下推荐使用LightGBM。


5、模型融合

模型融合可以在一定程度上提高比赛成绩。关于模型融合,已经有不少比较好的博文了,可以参照下面列出来的两篇[1-2]。这里我的建议是,在比赛的前期,大家可以把主要精力放在特征工程上面,等到比赛后期再进行模型融合。其次,模型融合时需要训练多个不同的模型,大家最好要知道每个模型适合什么样的特征。这样每个模型都有自己的特征体系,而不是所有单模型共用一套特征,这样在进行模型融合时提升也会相对比较大。


最后一个小小的建议,参赛的同学在有条件的情况下可以多找老司机们带带路,即使不能在同一个队伍,多听听老司机们的经验分享,也能使自己有很多的收获。


[1] [干货] Kaggle数据挖掘比赛经验分享

[2] [干货] 比赛后期大招之Stacking技术分享




▶▶点击【阅读原文】立即报名参赛,报名成功的同学也不要忘记点击登录完成实名认证哦~

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存